Noise is conventionally viewed as a severe problem in diverse fields, e.g., engineering, learning systems. However, this paper aims to investigate whether the conventional proposition always holds. It begins with the definition of task entropy, which extends from the information entropy and measures the complexity of the task. After introducing the task entropy, the noise can be classified into two kinds, Positive-incentive noise (Pi-noise or $\pi$-noise) and pure noise, according to whether the noise can reduce the complexity of the task. Interestingly, as shown theoretically and empirically, even the simple random noise can be the $\pi$-noise that simplifies the task. $\pi$-noise offers new explanations for some models and provides a new principle for some fields, such as multi-task learning, adversarial training, etc. Moreover, it reminds us to rethink the investigation of noises.
translated by 谷歌翻译
This paper presents an algorithm to solve the Soft k-Means problem globally. Unlike Fuzzy c-Means, Soft k-Means (SkM) has a matrix factorization-type objective and has been shown to have a close relation with the popular probability decomposition-type clustering methods, e.g., Left Stochastic Clustering (LSC). Though some work has been done for solving the Soft k-Means problem, they usually use an alternating minimization scheme or the projected gradient descent method, which cannot guarantee global optimality since the non-convexity of SkM. In this paper, we present a sufficient condition for a feasible solution of Soft k-Means problem to be globally optimal and show the output of the proposed algorithm satisfies it. Moreover, for the Soft k-Means problem, we provide interesting discussions on stability, solutions non-uniqueness, and connection with LSC. Then, a new model, named Minimal Volume Soft k-Means (MVSkM), is proposed to address the solutions non-uniqueness issue. Finally, experimental results support our theoretical results.
translated by 谷歌翻译
The mainstream crowd counting methods regress density map and integrate it to obtain counting results. Since the density representation to one head accords to its adjacent distribution, it embeds the same category objects with variant values, while human beings counting models the invariant features namely similarity to objects. Inspired by this, we propose a rational and anthropoid crowd counting framework. To begin with, we leverage counting scalar as supervision signal, which provides global and implicit guidance to similar matters. Then, the large kernel CNN is utilized to imitate the paradigm of human beings which models invariant knowledge firstly and slides to compare similarity. Later, re-parameterization on pre-trained paralleled parameters is presented to cater to the inner-class variance on similarity comparison. Finally, the Random Scaling patches Yield (RSY) is proposed to facilitate similarity modeling on long distance dependencies. Extensive experiments on five challenging benchmarks in crowd counting show the proposed framework achieves state-of-the-art.
translated by 谷歌翻译
因果推论已成为处理分布外(OOD)概括问题的强大工具,该问题旨在提取不变特征。但是,常规方法从多个数据拆分中应用因果学习者,这可能会从数据分布中产生偏见的表示学习,并且在异质源中不变特征学习中的难度。为了解决这些问题,本文介绍了平衡的元考生学习者(BMCL),其中包括平衡的任务生成模块(BTG)和元伴侣特征学习模块(MCFL)。具体而言,BTG模块学会通过一种自我学习的分区算法来生成平衡子集,该算法对示例类和上下文的比例有限制。 MCFL模块训练一个适合不同分布的元学习者。在NICO ++数据集上进行的实验验证了BMCL有效地标识了类不变的视觉区域进行分类,并可以作为改善最先进方法的性能的一般框架。
translated by 谷歌翻译
视觉和听力是两种在人类交流和场景理解中起着至关重要的作用的感觉。为了模仿人类的感知能力,旨在开发从音频和视觉方式学习的计算方法的视听学习一直是一个蓬勃发展的领域。预计可以系统地组织和分析视听领域的研究的全面调查。从对视听认知基础的分析开始,我们介绍了几个关键发现,这些发现激发了我们的计算研究。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听,跨模式感知和视听合作。通过我们的分析,我们发现,跨语义,空间和时间支持上述研究的视听数据的一致性。为了重新审视视听学习领域的当前发展,我们进一步提出了关于视听场景理解的新观点,然后讨论和分析视听学习领域的可行未来方向。总体而言,这项调查从不同方面审查并展示了当前视听学习领域。我们希望它可以为研究人员提供对这一领域的更好理解。发布了包括不断更新的调查在内的网站:\ url {https://gewu-lab.github.io/audio-visual-learning/}。
translated by 谷歌翻译
很少有课堂学习(FSCIL)旨在仅用几个样本不断学习新概念,这很容易遭受灾难性的遗忘和过度拟合的问题。旧阶级的无法获得性和新颖样本的稀缺性使实现保留旧知识和学习新颖概念之间的权衡很大。受到不同模型的启发,我们在学习新颖概念时记住了不同的知识,我们提出了一个记忆的补充网络(MCNET),以整合多个模型,以在新任务中相互补充不同的记忆知识。此外,为了用很少的新样本更新模型,我们开发了一个原型平滑的硬矿三元组(PSHT)损失,以将新型样品不仅在当前任务中彼此远离,而且在旧分布中脱颖而出。在三个基准数据集(例如CIFAR100,Miniimagenet和Cub200)上进行了广泛的实验,证明了我们提出的方法的优势。
translated by 谷歌翻译
由于高光谱摄像机传感器在较差的照明条件下捕获的能量不足,因此低光谱图像(HSIS)通常会遭受视野较低,光谱失真和各种噪音的遭受的影响。已经开发了一系列HSI恢复方法,但它们在增强低光HSIS方面的有效性受到限制。这项工作着重于低光HSI增强任务,该任务旨在揭示隐藏在黑暗区域中的空间光谱信息。为了促进低光HSI处理的开发,我们收集了室内和室外场景的低光HSI(LHSI)数据集。基于Laplacian金字塔分解和重建,我们开发了在LHSI数据集中训练的端到端数据驱动的低光HSI增强(HSIE)方法。通过观察到照明与HSI的低频组件有关,而纹理细节与高频组件密切相关,因此建议的HSIE设计为具有两个分支。采用照明增强分支以减少分辨率来启发低频组件。高频改进分支用于通过预测的掩码来完善高频组件。此外,为了提高信息流量和提高性能,我们引入了具有残留致密连接的有效通道注意块(CAB),该连接是照明增强分支的基本块。 LHSI数据集的实验结果证明了HSIE在定量评估措施和视觉效果中的有效性和效率。根据遥感印度松树数据集的分类性能,下游任务受益于增强的HSI。可用数据集和代码:\ href {https://github.com/guanguanboy/hsie} {https://github.com/guanguanboy/hsie}。
translated by 谷歌翻译
诚然,图形卷积网络(GCN)在图形数据集(例如社交网络,引文网络等)上取得了出色的结果。但是,通过梯度下降,使用数千次迭代来优化这些框架中的SoftMax作为决策层。此外,由于忽略了图节点的内部分布,决策层可能会导致半监督学习中的性能不令人满意,而标签支持较少。为了解决引用的问题,我们提出了一个新颖的图形模型,该模型具有用于图挖掘的非梯度决策层。首先,流形学习与标签局部结构保存统一,以捕获节点的拓扑信息。此外,由于非梯度特性,封闭式解决方案被用作GCN的决策层。特别是,为该图模型设计了一种联合优化方法,该方法极大地加速了模型的收敛性。最后,广泛的实验表明,与当前模型相比,所提出的模型已经达到了最先进的性能。
translated by 谷歌翻译
长期以来,3D面部识别因其抵抗当前的物理对抗攻击(例如对抗斑块)而被认为是安全的。但是,本文表明,3D面部识别系统很容易受到攻击,从而导致逃避和模仿攻击。我们是第一个针对3D面部识别系统(称为结构化光成像攻击(SLIA)的)提出可实现的攻击的人,该系统利用了基于结构化的3D扫描设备的弱点。 Slia在结构化的光成像系统中利用投影仪来创建对抗性照明,以污染重建的点云。首先,我们提出了一个3D变换不变的损耗函数(3D-TI),以生成对逆动力的对抗扰动,这对头部运动更强大。然后,我们将3D成像过程集成到攻击优化中,从而最大程度地减少了流条纹模式的总像素转移。我们意识到对现实世界3D面部识别系统的躲避和模仿攻击。与倒角和基于倒角+KNN的方法相比,我们的方法对预计模式的修改需要较少,并且达到0.47(模拟)和0.89(躲避)的平均攻击成功率。本文揭示了当前结构化的光成像技术的不安全感,并阐明了设计安全的3D面部识别身份验证系统。
translated by 谷歌翻译
步态识别是一项重要的识别技术,因为步态不容易伪装,也不需要合作来识别受试者。但是,许多现有方法在保留时间信息和细粒度信息方面不足,从而减少了其歧视。当发现具有类似步行姿势的受试者时,这个问题更为严重。在本文中,我们试图增强从两个方面的时空步态特征的区分:有效提取时空步态特征和合理的提取特征细化。因此,提出了我们的方法,它由时空特征提取(SFE)和全局距离比对(GDA)组成。 SFE使用时间特征融合(TFF)和细粒特征提取(FFE),从原始轮廓中有效提取时空特征。 GDA在现实生活中使用大量未标记的步态数据作为优化提取的时空特征的基准。 GDA可以使提取的特征具有较低的阶层间相似性和高层的相似性,从而增强了它们的歧视。对Mini-OUMVLP和CASIA-B进行了广泛的实验,证明我们比某些最新方法的结果更好。
translated by 谷歌翻译